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Die folgenden Angaben sind den vom Anmelder eingereichten Untertagen entnommen 

Prufungsantrag gem. § 44 PatG ist gestellt 

@ Text/Sprache-Umset2ungssystem zur Verschrankung in einer Multimediaumgebung und Verfahren zum 
Organisieren der Eingangsdaten fur dieses System 

@ Text/Sprache-Umset2ungssystem (TTS-System) fur die 
Verschrankung mit einer Multimediaumgebung sowie 
Verfahren zum Organisieren der Eingangsdaten fur dieses 
System zum Verbessern der Naturlichkeit der synthetf- 
sieaen Sprache und zum Bewerksteltigen der Synchroni- 
sierung der Multimediaumgebung mit dem TTS-System 
durch Definleren zusatzlicher prosodischer Informatio- 
nen, Informationen, die fur die Verschrankung des TTS- 
Systems in der Mullimediaumgebung erforderlich sind, 
und der Schnittstelle zwischen diesen Informationen und 
dem TTS-System fur die Verwendung bei der Erzeugung 
der synthetisierten Sprache. GemafS der vorliegenden Er- 
findung kann ein fremdsprachiger Film in koreanischer 
Sprache nachsynchronisien werden, indem die Synchro- 
• nisierung der synthetisierten Sprache mit dem Film im- 
plementiert wird durch die direkte Verwendung der Text- 
informationen und der Lippenforminformationen, die an- 
hand der Analyse der akiueflen Sprachdaten und der Lip- 
penform im Film geschatzt werden, fur die Erzeugung der 
synthetisierten Sprache. Die voriiegende Erfindung kann 
ferner auf verschiedene Gebiete wie z. B. einen Kommu- 
nikationsdienst, die Buroautomatisierung. die Erziehung 
usw. angewendet werden, indem die Synchronisierung 
zwischen der Bildinformation und dem TTS-System in ei- 
ner Multimediaumgebung ermoglicht wird. 
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Beschreibung 

Die vorliegende Erfindung bezieht sich auf ein Text/Sprache-Umseizungssystem (im folgenden mit TTS-Systeni be- 
/.cichnci) zurn Verschranken in einer MuUiniediaumgebung sowie ein Verfahren zuni Organisieren der Einaancsdaien fur 
dieses Sysiein und insbesonderc auf ein Text/Sprache-Unisetzungssysiein (TTS-Systeni) ziir Verschrankung in einer 
MuhiiHcdiaunigebunt; und ein Verfahren zuni Organisieren der Eingangsdaien dieses Systems, uni die Naiurlichkeii der 
>\ niiieiisienen Sprache zu verbessem und die Synchronisierung zwischen der Muliiniediaumgcbung und dem ITS-Sy- 
Mcni /.u erreichen, indein zusaizlich prosodische Infonnationen, die fur die Verschrankung des TrS-Systenis mil der 
Muliinicdiauingebung erforderhchen Infomiaiionen und eine Schniii stelle zwischen diesen Infonnaiionen und dein 
riS-Sysieni Tur die Verwendung bei der Erzeugung der syniheiisierten Sprache definien werden. 

IXt '/week des Sprachsynthesizers ist ini allgenieinen, fiir einen Menschen, der einen Computer benuizu unterschied- 
liclie 1 -onucn von Infomiationen zur Verfugung zu sieUen. Zu diesem Zweck soUie der Sprachsynthesizer den Benulzer 
mil :iiis einem gegehenen Text, synrhetisierter Sprache mil hoher QuaHrar. bedienen. AuBerdem soUte der Sprachsynrhe- 
si/cr fur die Verschrankung mil der Datenbank, die in einer Muldmediaumgebung, wie z. B. mit einem Film oder einer 
Animmion, oder mit verschiedenen Medien, die von einer Gegenseite der Konversation zur Verfugung gestellt werden, 
er/eui:i werden isi, die syntheiisiene Sprache synchron zu diesen Medien erzeugen. Die Synchronisierung des TTS-Sy- 
vicniN mil der Mullimediaumgebung ist insbesondere wichtig, urn den Benulzer einen Diensi mit hoher Qualiiat zur Ver- 
iij/uMi' / J siellen. 

V-^ K .fi I- i-. ^ gczeigt, durchlaufi ein typisches herkommliches TTS-System einen aus drei Stufen bestehenden ProzeB 
u t.M -i. hiN die syntheiisiene Sprache aus einem eingegebenen Texterzeugt wird. 

Itt cai. n. ^Tvicn Schriti setzt ein Sprachprozessor 1 den Text in eine Serie von Phonemen um, schalzt prosodische In- 
I . *^ H ^ n itf vi symbolisiert diese Informationen. Das Symbol der prosodischen Information wird anhand einer Grenze 
.u- f. ijfwl ties Satzes, einer Position der Betonung im Wort, eines Satzmusters usw. unier Verwendung der Analy- 

se* -i'. ♦^..^^ ^t^-r Syntax geschatzt. 

J- /^Aciien Schrilt berechnetein prosed isc her Prozessor 2 einen Wen eines prosodischen Steuerparameters an- 

i . . • w ^ s ^ hsicrien prosodischen Infonnaiionen unier Verwendung einer Regel und einer Tabelle. Der prosodische 
^ - ;■ . ur cnthiih dic Daucr des Phoncms, die Tonhohcnvcrlauf, den Encrgicvcrlauf und die Pauscninicrvallinfor- 
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!ri!icn Schrin erzeugt ein Signal prozessor 3 eine synlhetisiene Sprache unter Verwendung einer Svnrhesee- 
!-.ifik 4 und der prosodischen Sieuerparaiiieter. Mit anderen Worten bedeuiet dies, daB das herkSmmliche 
Ik- der Naiurlichkeii und der Sprechgeschwindigkeit zugeordneien Informationen im Sprachprozessor 1 
jx. -^-.li^-hcn Prozessor 2 nur anhand des eingegebenen Textes schaizen soli. 
! ^-"w: i: .i .!js herkommliche TTS-Sysiem die einfache Funktion zum Ausgeben von Daien, die von der Einheii als 
ViJ/ ..u.^ -w-tvM worden sind, als syculietisierie Sprache. Um die in einer Datei gespeicherten Satze oder die uber ein 
k- •HtMumk.jionsnetz eingegebenen Satze der Reihe nach als syntheiisiene Sprache aus zugeben. 'isi ein Hauptsteuerpro- 
yr r.uiu -rdertich, das die Sarze aus den eingegebenen Daten liest und diese zum Eingang eines TTS-Sysiems sendei. 
1 ifi ^. I es i laupisteuerprogramm enihah ein Verfaliren zum Trennen des Textes von den eingegebenen Daten und zum 
ei.- n,..ii;jcti Ausgeben der synthetisienen Sprache vom Anfang bis zum Ende, ein Verfahren zum Erzeugen der syntheu- 
Menen Spr.K hc in Vensclirankung mil einem Textediior. ein Verfahren zum Verschranken der Satze unter Verwenduna ei- 
An ru-v i ir .phikschninstelle und zum Erzeugen der syntheiisierien Sprache usw., wobei jedoch die Anwendbarkeii diescr 
\v [ :.thr(.-n ,iuf Texi beschrankl ist. 

iVi/c ii hjben Sludien uber ^[TS-Sysieme fur Landesspraehen in unierschiedlichen Landern beirachtliche Fort scliii tie 
;jc-n...-hi . w oboi in einigen Landern eine gewerblichc Verwendung erreichi worden ist. Dies gill jedoch nur fur die Ver- 
vK. .Kiim:j d.T Synihese der Sprache aus dem eingegebenen Text. Da es unmoglich ist, nur anhand des Textes die Infor- 
45 iHjii.Hicn /.u schaizen, die ertbrderhch sind wenn ein Film unter Verwendung eines TTS-Systems nachsynchronisien 
uerdcn s^>!l otler wenn die naturliche Verschrankung zwischen der synthetisienen Sprache und der Multimediaumge- 
hun-. wic z. B. bei einer Animation, implementien werden soli, gibtes auRerdeni mil einer Organisation des Standes der 
i'ewhnik kein Verfahren zum Realisieren dieser Funkiionen. Femer liegt kein Eigebnis der Siudien iiber die Veru^enduns 
/.uvji/^liehcr Daten zur Vcrbcsscrung der Naiiirlichkeit der synthetisienen Sprache und der Organisation dieser Daten vor 
50 iLs iM duher die Aufgabe der vorliegenden Erfindung, ein Texl/Sprache-Unisetzungssystem (TTS-System) zur Ver- 
schrankung in einer Mullimediaumgebung sowie ein Verfahren zum Organisieren der Eingangsdaten des Systems zu 
schaiien. iiiit die Naiurlichkeii der synihelisicnen Sprache zu verbessem und eine Synchronisierung der Multiniediaimi- 
gebung mil dem ITS-System zu erreichen, indem zusatzliche prosodische Informationen. die fur die Verschrankuns des 
'rrS-Sysiems mil der Mullimediaumgebung erforderlichen Informationen sowie die Schnittstelle zwischen diesen Infor- 
55 maiionen und dem ITS-Sysiem fur die Verwendung bei der Erzeugung der synihetisierten Sprache definien werden. 

Diese Aulgabe wird ertindungsgemaB gelost durch ein iexiySprache-Umsetzungssvsiein. das die im Anspruch 1 an- 
gegebenen Mcrkmale besitzi, sowie durch ein Verfahren zum Organisieren der Eingangsdaten eines Text/Sprache-Um- 
setzungssysienis, das die im Anspruch 2 angegebenen Mcrkmale bcsitzt. Die abhangigen Anspriiche sind auf bevorzueic 
Austuhrungstomien geriehiei. 

Woiiere Merkniale und Vorieile der vorliegenden Erfindung werden deudich beim Fe.sen der folgenden Re.schreibung 
bevor/.ucicr Ausfuhrungsfomien, die auf die bcigefugten Zeichnungen Bezug nimmi; es zeiaen: 

Fig. 1 eine Konstruktionsansicht eines Tex l/Sprache-Umsetzungssys terns geniaB der vorliegenden Erfindung: 
2 cine Konstruktionsansicht einer Hardware, auf die die vorliegende Erfindung angewendei wird; und " 
Fij^. J die bcreiis erwahnie Konstruktionsansicht eines TextySprach-Umseizungssysiems des Siandcs der Technik. 
65 fm folgenden wird die vorliegende Erfindung anhand der bevorzugten Ausfuhrungsfonn genauer beschrieben. 

En Fig. 2 isi eine Konstruktionsansicht der Hardware gezeigt. auf die die vorliegende Erfindung angewendei wird. Wic 
in Fig. 2 gezcigi. umfaBidie Hardware eine Multimediadaicneingabeeinheii 5. oine Zeniraleinheit 6reine Synihese-Da- 
icnbank 7. einen Digiial/.Analog-(D/AVUmsetzer 8 sowie eine Bildausgabevorrichiung 9. 
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Die Mullimediadateneingabeeinheii 5 empfangi Daien, die MuUiiuediadaien wie z. B. ein Bild und einen Text uiiifas- 
sen, und gibi diese Daren an die Zentraieinheii 6 weiier. 

Die Zjentraleinheii 6 verieili die Muliiniediadateneingabe der vorliegenden Erfindung, steiii die Synchronisierung ein 
und fuhn einen darin enihalienden Algoriihmus zuni Erzeugen der syntheiisierlen Sprache aus. 

Die Synihese-Datenbank 7 isi eine Daienbank, die ini Algorirhuuis zunj Erzeugen der syniheiisierten Sprache verwen- 5 
de! wird. Dicse Synihese-Datenbank 7 isi in eincr Speichervorrichiung gespeichert und sendei die erforderhchen Daien 
zur Zeniraleinhcit 6. 

l>er Digiuil/Analog-(D/A)-Uniseizer S seizi das syniheiisiene Digiialsignal in ein Analogsignai uni und gibi dieses 
aus. 

Die Bildausgabevomchiung 9 gibi die eingegebenen Bildintbnuationen auf eineni Bildschirni aus. 10 
Die Tabellen 1 und 2 sind Aigorithmen, die den Zustand der organisierten Multimediaeingangsinfomiationen zeigen, 

die Text, prosodische Informationen, die Informaiionen fiir die Synchronisierung niii eineni Fibn, die Lippenform und 

individuelle FjgenschafLsinfomiaiionen umfassen. 

(Tabelle 1) 15 



Syntax 

TTS_Sequence() { 

TTS_Sequence_Start_Code 

Prosody^Enable 

Video^^able 

Lip_Shape_Enable 

Start_Aiiy_Place 

do{ 

TTS__Sentenc8() 

}while (next^^bits {) ==TTS_Sentence_^SLart_Code 



35 

Hierbei ist lTS_Seque.nce_Siart_Code cine Biiketic, die hcxadezinial "XXXXX" darccsieiii wird und einen Beginn 
des Tl^S-Saizcs bezeichnet. 

TTS_Sentence_ID isi eine 10-Bii-ID und sielh eine geeigneie Nuinnier jedes TTS-Daiensironis dar. 

Language_Code stelk eine Objeklsprache wie z. B. Koreanisch, EngHsch, Deuisch, Japanisch, Franzosisch und der- 
glcichen dar, die syniheiisiert werden soil. 40 

Prosody_HnabIc isi ein 1-Bii-Merker und besiizi einen Wert von "1 wenn in den organisienen Daien prosodische Da- 
ien des Orginahons en I ha hen sind. 

Video_Enabie isi ein l-Bit-Merker und besiizi einen Wen von "1", wenn ein T^rS-Sysieni mil eineni Fihn vcrschriinki 
isi. 

Lip_Shape_Enable isr ein 1-Bii-Merker und besiizi einen Werl von "1", wenn in den organisicrien Daten Lippenform- 45 
daien enihahcn sind. 

Trick_iVIodo_Enable isi ein l-Bii-Merker und besiizi einen Wen von "T", wenn die Daien so organisien sind, daB sie 
einen Trickinodus uniersmizen. wie z. B. Siopp, Neusiari, Vorwaris und Ruck wans. 

50 



25 



55 



Y>0 



65 
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(Tabelle 2) 
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Syntax 



TTS_Sentence ( ) { 

TTS_S on t enc Q_S t ar- t_Cocle 

Silence 

if (Silence) { 

SdLlence 0X137211:10X1 



else{ 



} 

Gender* 
Age 

if ( i Video_Enable) { 
Speecli_Rat:e 

I»eagtli_o f _Tex t 
TTS_Text 

Po s ± 1 1 oii_±rL_S en. t:exic e 
if (Pr-osociy__Ena3Dle) { 

Ntmibe ar^o f _jpiio xaeme a 

Dux'_Enabl e 

FO_Eiiable 

Knez-gy__Kn ah>Xe 

fo3r(j=0 ; j <:NuTnber_of ^phonemes ; 3++) { 
Sy2nbol_eachj>licneme 
Dtir^e ac li^plionoine 
F O_con t o\i2r_eac h^jpHoneme 
Ene arcfy^c on t oxir'_eacii__piioiieme 

if (Vieeo_EnaiDle) { 

Seatence^rnar-ation 
Po a i t ioa_iii__S en t ©nc e 
offset 

if {ljip_Sh.ape_Enah)le) { 

Nuini3er'_o f _r.ip__Eveii t 

fo2r(j=0 ; j <NuTrLber_of _Ijip_Event ; 

Ii ±p in_S en t enc e 

Ijip_Siiape 



} 



} 



F-Iicrbei ist Tl^S_Sentence_Stari_Code eine Bitkeiie, die hexadezinia! "XXXXX" dargesielli wird und eincn Beginn ei- 
nes ITS-Saizes bezeichnei. TTS_Sentence_Stai-r_Code ist cine 10-Bii-ID und sielit cine geeigneie Nunimer jedes ITS - 
Daiensiroms dar. 

TTS_Sentcnce_ID isi einc lO-Bit-ID und sielU eine geeignetc NLininier jedes ITS-Saizes dar, der ini TTS-Stroni vor- 
45 handen ist. 

Silence wird gleich "1", wenn ein vorliegender Eingangsrahinen des 1-Bii-Mcrkers ein stiller Sprachabschnitl isi. 
In dor Siufe von Silencc^Duraiion wird eine Zeiidauer des voriiegenden siiilen Sprachabschnius in Millisekunden dar- 
gesielii. 

In der Stufe von Gender wird das Geschlechi einer syniheiisienen Sprache unierschieden. 

In der Slufe von Age wird ein Alter der synihetisierten Sprache unierschieden zwischen Kleinkindalier, Jugcndalter, 
miiilereni Alter und hohein Alter. 

Speak^Raie stelli eine Sprechgeschwindigkeii der syniheiisicrtcn Sprache dar. 

In der Slufe von Length of Text wird cine Liinge des eingegebenen Texisatzes dure h ein Byte darj^estelli. 
In der Slufe von lTS_Text wird ein Satztext niit. optionaler Lange dargestcilt. 

Dur_Enable isi ein l-Bit-Merker und wird gleich "1", wenn in den organisienen Daien eine Zeitdauerin ton nation eni- 
h alien ist. 

FO_Contour_Enable ist ein l-Bit-Merker und wird gleich "1", wenn in den organisienen Daien eine Tonhoheninfor- 
mation fiir jedes Phoncrn enthahcn isi. 

Energy_Contour_Enable isi ein 1-Bit-Mcrker und wird gleich "1". wenn in den organisienen Daien cine Energieinfor- 
r>0 tnaiion fiir jedes Phoneni enthahen isi. 

In der Siufe von Nuniber_of_phoncines. ist die Anzahl der Phoneme dargestcilt, die zuiii Syntheiisieren eines Saizes 
benotigi werden. 

In der Slufe von Synibol_each_phoneiiie isi ein Symbol wie z. B. D^A dargestelli, das das jeweilisie Phonem repriisen- 
tiert. 

Dur_each_phoneme stellt eine Zeitdaucr des Phoneins dar. 

In der Slufe von FO_coniour_each_phonenic wird ein Ton hohcn muster des Phone ms mi tie Is cincs Tonhohcnwerts des 
Anfangspunkts. des Mitielpunkts und des Endpunkis des Phonems dargestellt. 

In der Stufe von Energy_(:oniur_each_phonenie wird das Energiemuster des Phoneins darsesiellt. wobei ein Enereie- 
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wen des Anfangspunkis, des Miitelpunkis und des Endpunkis des Phonenis in Dezibel (dB) daigesielli wird. 
Sentcnce_Duraiion sielli eine Gesainizeiidauer der syntheiisierten Sprache des Saizes dar. 
Posiiion_in_Senience siellr eine Position des vorliegenden Rahniens ini Satzdar. 

In der Stufe von Ottsei wird dann, wenn die syniheiisierte Sprache mil eineni Film verschranki ist und ein Anfangs- 
punki des Saizes in der Bildgruppe GOP (Group Of Pictures) liegi. eine Verzdgeningszeit dargestelli, die vom Anfangs- 5 
punki der GOP zum Anfangspunki des Saizes versixeicht. 

Nuinber_or_Lip_Event stellt die Anzalil der Anderungspunkie der Lippenforni im Saiz dar. 

Lip_Shape sicllt eine Lippenlbrin an einem Lippenfornianderungspunkt des Saizes dar. 

're.xiintonnaiionen enthalten einen Kiassifizierungscode tureine verwendeie Sprache undeinen Satziexi, Prosodische 
Infomiationen enihahen die Anzahl der Phoneme im Satz, Phonemsirotninfoniiaiionen, die Dauer jedes Phoneins, das to 
Tonhdhenmuster des Phonems sowie das Energierausler des Phone ms und werden zum Verbessem der Naturlichkeit der 
syntheiisierten Sprache verwendet. Die Synchronisierungsinfonnationen des Fihiis und der synthetisierien Sprache kon- 
nen als das Nachsynchronisierungskonzepr berrachrei werden, wohei die Synchronisierung auf drei A\tegen erreicht wer- 
den kann. 

Erslens mil einem Verfahren zum Synchronisieren des Fibiis mil der syntheiisierten Sprache durch die Satzeinheit, mil 15 
der die Dauer der synthetisierien Sprache unier Verwendung der Informationen iiber die Anfangspunkte der Satze, die je- 
weihge Dauer der Satze und die Verzogerungszeiten der Anfangspunkte der Satze eingestelli wird. Die Anfangspunkte 
der jeweiligen Satze zeigen die Siellen der Szenen an, an denen die Ausgabe der syntheusienen Sprache fur den jewei- 
ligen Satz innerhalb des Films eingeleitei wird. Die jeweilige Dauer der Satze gibl die Anzahl der Bilder an, die die syn- 
thetisierte Sprache fur den jeweiligen Saiz andauert, AuBerdem solUe der Film des MPEG-2- und ^CPEG-4-Bildkom- 20 
pressionstyps. bei dem das (Troup-Of-Piclure-((iOP)-Konzepi verwendet wird, nicht in einer beHebigen Szene, sondem 
an einem Szenenbeginn innerhalb der Gruppe der Bilder fur die Reprodukiion beginnen. Somit ist die Verzogerungszeit 
des Anfangspunkis die zum Synchronisieren der Gruppe der Bilder und dem TTS-Sysiem benoligte Information und gibi 
eine Verzogerungszeit zwischen der beginnenden Szene und einem Sprachanfangspunkt an. Dieses \ferfahren isl leichi 
zu realisieren und minimiert den zusatzLichen Aufwand, wobei es jedoch schwierig ist, eine nariirliche Synchronisierung 25 
zu erreichen. 

Zwciicns mil cincm Verfahren, mit dem die Anfangspunktinfomialioncn, die Endpunklinformationcn und die Pho- 
neininfonnationen fiir jedes Phonein innerhalb eines Intervalls, das einem Sprachsignal im Film zugeordnei isl, markiert 
werden, wobei diese Informationen verwendet werden, um die syniheiisierte Sprache zu erzeugen. Dieses Verfaiiren hai 
den Vorteil, daB der Grad der Genauigkeit hoch isl, da die Synchronisierung des Films mil der syniherisicrien Sprache 30 
durch die Phoncmcinheit erreicht werden kann. hat jedoch den Nachieil, daB ein zusaizlichcr Aufwand erforderlich ist, 
uni die Z^itdauerinfomialionen mil der Phonemeinheii innerhalb des Sprachintervalls des Films zu deiekiieren und auf- 
zuzeichnen. 

Driitens mil einem Verfahren zum Aufzeichnen der Synchronisationsinformationen auf der Grundlage des Anfangs- 
punkts der Sprache, des Hndpunkis der Sprache, der Lippcnfonu und eines Zeiipunkts der Lippcnfonniinderung. Die 35 
Lippenlorm wird quanrisierl als der A b stand (MaB derOlTnung) zwischen der Oberlippe und der Unterlippe, der Absiand 
(MaB der Breiie) zwischen den linken und rechten Punklen der Lippe und das MaB des Vorstehens der Lippe und wird als 
quaniisienes und nomiierles Muster in Abhangigkeii voni Ariikulaiionson und der Artikulaiionsan des Phonems auf der 
Grundlage eines Musters mil hoher Unterscheidungsfaliigkeil definieri. Dieses Verfahren ist ein Verfahren zum Sieigem 
der Effizienz der Synchronisierung, wobei der zusaizliche Aufwand zum Erzeugen der Infbmiaiionen fiir die Synchroni- 40 
sierung minimiert werden kann. 

Die organisierien Muhiniediacingangsinfoniiaiionen, die der vorliegenden Erfindung zugel'uhrt werden, ennoglichcn 
eineni Infonnationslicferanien, opiional unier drei Synchronisierungsverfaliren wie oben be.schriebcn auszuwalilen und 
dieses zu implemeniieren. 

Femer werden die organisierien Multiniediaeingangsinfomialionen zum Implemeniieren der Lippenanimaiion ver- 45 
wendct. Die Lippenanimaiion kann implementien werden unier Verwendung des Phonemstrorns. der aus dem cingege- 
benen Texi im TTS-Sysiem und der Dauer jedes Phonems, oder unier Verwendung des Phonemsiroins, der von den Ein- 
gangsinformaiionen vencili wird, und der Dauer jedes Phonems, oder unier Verwendung der Inforinaiionen iiber die Lip- 
pcnfonii, die in den eingegebenen Infomiationen enthaken sind, vorbereiiei worden ist. 

Die individuclle Eigenschafisinfoniiaiion erlaubi dem Benuizer, das Geschlechi, das Alter und die Sprechgeschwin- 50 
digkcil der syntheiisierten Sprache zu andem. Das Geschlechi kann mannlich oder weiblich sein. wahrend das Alter in 
vier Stiifen klassifizieri wird, z. B. 6-7 Jahre, 18 .lahre, 40 .lahre und 65 Jahre. Die Anderung der Sprecligeschwindigkeii 
kann zehn Siufen zwischen dem 0,7fachen und dem l,6fachen einer Normgeschwindigkeii unifassen. Die Qualiiiii der 
syniheiisierten Sprache kann unter Verwendung dieser Infomiationen diversifizieri werden. 

Fig, I ist eine Konsimkiionsansichi des Text/Sprache-Umsetzungssy stems (TTS) geiiiaB der vorliegenden Erfindung. 55 
Wie in Fig. 1 gezeigt, unifaBidas TrS-System eine Muliimediainfomiationseingabeeinheit 10, einen Daienverteiler fiir 
jedes Medium 11, einen genonnien Sprachprozessor 12, einen prosodischen Prozessor 13, eine Synchronisierungscin- 
siellvorrichiung 14. einen Signalprozessor 15, eine Syniheseeinhcii-Daienbank 16 sowie cine Bildausgabevorrichiung 
17. ^ ^ 

Die Muliiniediaeingabeeinheir 10 isl in Form der Tabelle 1 und 2 konfiguriert und unifaRi Text, prosodische In forma- f>0 
lionen, die Informationen fiir die Synchronisierung mil eineni Film und die Infomiationen iiber die Lippenfonn. Von die- 
sen ist der Text die noiwendige Infonnaiion, wahrend die anderen Infomiaiionen von einem Infomiaiionslieferanten Qp- 
lional als opiionalcs Element zum Verbessem der individuellen Eigenschafi und der Naturlichkeii und zum Erreichen der 
Synchronisierung mil der Muliimediaumgebung zur Verfiigung gesielli werden konnen. wobei sie bei Bedart" von einem 
ITS-Benuizer mitiels einer 2!Uricheneingabevorrichtung (Tasiaiur) oder einer Maus geandcri werden konnen. Diese In- 65 
fomiaiionen werden uber das jeweilige Medium 11 zum Daienverteiler gesendei. 

Der Daienveneiler empfangl uber das jeweilige Medium 11 die Muliimediainfomiaiionen. von denen die Bildinfor- 
maiionen zur Bildausgabevorrichiung 17 gesendei werden. der Text zum Sprachprozessor 12 gesendei wird und die .Syn- 
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chronisierungsinfonnaiionen in eine Daienstruklur, die in der SynchronisierungseinsieUvorrichtung 14 verwendet wer- 
den konnen- unigeseizt und zur SynchronisierungseinsieUvorrichiung 14 gesendet werden. Wenn in den eingeoebenen 
Mullimediainfonnaiionen prosodische Infbnnaiionen enihalten sind, werden diese Muliimediainfomiationen in eine Da- 
ienstruklur uiugcsetzt, die der Signalprozessor 15 verxvenden kann, und werden anschlieBend zum prosodischen Prozes- 
sor 13 und ziir Synchronisierungseinsieilvorrichtung 17 gesendet. Wenn in den eingesebenen Muliiiiiediainronnanonen 
individuelle Besitzintormanonen enihalien sind, werden diese Muliiinediainfonuaiionen in eine Daiensiruktur uin-e- 
seizi, die m der Synihesecinheii-Daienbank 16 und ini prosodischen Prozessor 13 innerhalb des TTS-Sysienis verwendei 
werden konnen, und werden anschlieBend zur Synlhescemheii-Daienbank 16 und zum prosodischen Prozessor 13 gesen- 

Der Sprachprozessor 12 konvenien den Text zu einem Phoneinsirom, schatzi die prosodischen Infomiationen, sym- 
bolisieri diese Infomiationen und sendet anschlieBend die symbolisierien Infomiationen zum prosodischen Prozessor 13. 
Das Symbol der prosodischen Infomiationen wird anhand einer Grenze der Phrase und des Satzes, einer Position der Be- 
tonung ini Wort, eines Sary.musters usw. unrer Verwendung des Analyseergebnisses der Synr^x geschatzL 

Der prosodische Prozessor 13 einpfangt das Verarbeiiungsergebnis des Sprachprozessors 12 und berechnet einen Wert 
15 des prosodischen Steuerparameters, der sich von dem prosodischen Parameter unterscheidet, der in den Multimediain- 
fomiaiionen enthalten isL Der prosodische Steuerparameter enthalt die Dauer, den Tonhohenverlauf, den Energieverlauf 
den Pausenpunki und die Pausenlange des Phonems. Das berechnete Ergebnis wird zur Synchronisieruneseinsiellvor- 
richiung 14 gesendet. 

Die Synchronisierungseinstellvonrichtung 14 empfangt das Verarbeiiungsergebnis des prosodischen Prozessors 13 

20 und stelh fur jedes Phonem die Dauer ein, urn das Ei-ebnis mil dem Bildsignal zu synchronisieren. Die Einsielluno der 
Dauer jedes Phonems nuizi die vom Datenverteiler iiber das jeweilige Medium 11 eesendeie Synchronisiemngsinfoma- 
tion, Zuerst wird jedem Phonem in Abhangigkeit vom .Aj-tikuherungson und der Artiku lie mno sari des Phonems eine 
Lippentonn zugewiesen, wobei auf der Grundlage hiervon die zugewiesene Lippenfonn mil der Lippenfomi vergiichen 
wird, die in der Synchronisierungsinfomiaiion enihalien ist, woraufhin der Phonemsirom anhand der Anzahl der in den 

25 Synchronisierungsinfomiationen aufgezeichneten Lippenfomien in kleine Gruppen unieneili wird. Femer wird die 
Dauer des Phonems in den kleinen Gruppen emeui unter Verwendung der Zeiidauerinfonnarioncn der Lippenfonn be- 
rechnet, die in dor Synchronisierungsinfomiaiion cnihakcn ist. Die Informaiioncn ubcr die cingcsicllic Dauer werden 
zum Signalprozessor 15 ubenragen, der das Verarbeitungsergebnis des prosodischen Prozessors 13 enthah. 

Der Signalprozessor 15 empfangi die prosodische Informaiion vom Muliimediaveneiler 11 oder das Verarbeiiunoser- 

30 gebnis der Synchronisierungseinsiell vorrichiung 14, um unier Verwendung der Syntheseeinheii-Datenbank 16 die^svn- 
ihetisiene Sprache zu erzeugen und auszugeben. 

Die Symheseeinheit-Dalenbank 16 empfangi die individuelle Be silzin fori nation vom Muliimediaveneiler 11. wahli 
die zum Geschlechi und zum Alter passenden Syniheseeinheiten aus und sendei anschlieBend die fur die S vnihese beno- 
tigien Daieij zum Signalprozessor 15 als Aniwon auf eine Anfrage vom Signalprozessor 15. 

35 Wie aus der obigen Beschreibung deutlich wird, konnen die individuellen Eigenschaften der svniheiisierten Sprache 
gemaB der vorliegendcn Erfindung verwirklichi werden, wobei die Naiudichkeii der syniheLisierien Sprache verbesseri 
werden kann durch Organisieren der individuellen Eigenschaften und der prosodischen Inlbrmationen. die durch die 
Analyse der akiuellen Sprachdaien geschaizt werden, zusammcn mil den Texiintomiaiionen als niehrstufige Infomiaiio- 
nen. Femer kann ein frenidsprachiger Film in koreanischer Sprache nachsvnchronisien werden, indem die Svnchronisie- 

40 rung der synihensierten Sprache mil dem Film impleineniierl wird durch die direkie \^rwendung der Textinfomiaiionen 
und der Lippenrorminformaiionen, die anhand der Analyse der akiuellen Sprachdaien seschaizt werden, und der Lippen- 
tonn mi Film zur Hersieliung der syntheiisierten Sprache. Die vorliegende Erfindunglcann femer auf verschiedene Ge- 
bieie wie z. B. cinem Komniunikationsdiensi, der Buroauiomatisierung. der Erzichune usw. ansewendei werden, indem 
die Synchronisierung zwischen der Bildinlbnnation und dem TTS-Sysieni in einer Multimediaunii^ebune emioelichi 

45 wird. & e ^ 

Obwohl die vorliegende Erfindung und ihre Vorieile genau beschrieben worden sind. isi klar. daB verschiedene Ande- 
mngen, Erseizungen und Abwandlungen daran vorgenonimen werden konnen, ohne vom Geisi und vom Uml^ns der Er- 
findung, wie sic durch die beigcfugten Anspriiche dcfinien ist. abzuweichen. 

Die beigefugien Anspriiche sollen daher alle solchen Anwendungen, Abwandlungen und Ausfuhrunsstx^nnen inner- 
50 halb des Unitangs der Erfindung abdecken. 

P.'iientanspruche 

I. Text/Sprache-Umseizungssyslem (TTS-System) fur die Verschrankuns in einer Muliimediaumoebuno eekenn- 
55 zoichnet durch ^ 1. 

eine Muliimediainfonnaiionseingabeeinheil (10) zum Organisieren von iext, prosodischen Infomiationen, Infor- 
mationen uber die Synchronisierung mil einem Film, der Lippenfonn und der Infomiationen wie z. B. der individu- 
ellen EigenschaH; 

einen Daicnvcrteiler (11) zum Verteilen der Informaiioncn der Muliimediainformaiionseinsabeeinheit (5) auf die 
C^O Tnlorniaiionen lur die jeweiligen Medien: 

einen Sprachprozessor (12) zum Umseizen des vom Datenverteiler (11 1 liber das jeweiiiee Medium veneilien Tex- 
les in emen Phonemsirom. zum Schatzen der prosodischen Infomiationen und zum Svrnbolisieren der Infomiatio- 
nen: 

einen prosodischen Prozessor (13) zum Bercchnen emes Wens des prosodischen Sieuerparameters aus der svmbo- 
6^ hsicrten prosodischen Intomiaiion umer Verwendung einer Rcgel und einer Tabellc; 

cine Synchronisicmngseinsteilvorrichmng (14) zum Einsicllen der Dauer des Phonems unier Vcrwenduns der vom 
Datenveneiler (11) iiber das jeweilige Medium verteilte Synchronisierungsinfomiaiion; 

einen Signalprozessor (15) zum Erzeugen einer syniheiisienen Sprache Jnier Ver\vendune des prosodischen Steu- 
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erparajiieiers und der Daten in einer Syniheseeinheil-Datenbank (16); und 

eine Bildausgabevorrichmng (17) zuin Ausgeben der voiu Daienveneiler (11) iiber das jeweilige Medium vereilten 
Bildinlbnnaiionen auf eineni Bildschimi. 

2. Verfahren zuiu Organisieren der Eingangsdaien eines Texi/Sprache-Uiiiseizungssysicms (TTS-Sysicm) fur die 
Verschrankiing in einer Miiliiiuediainugebiing, gekennzeichnet durch die Schriire: 5 
Klassifizieren der Muhimediaeingangsinfonuaiionen, die zur Verbcsserung der Naiurlichkeii der syndieiisierten 
Sprache und zur Iniplciucniierung der Synchronisicrung der Muliiniediaumgebung mil dein Tl'S-Sysieni organi- 
sicn sind, in Texi, prosodische Infomiaiionen, Infonuaiionen flir die Synchronisierung mil eineni Film, die Lippen- 
tonii und die individuellen Higenschafisinfomiaiionen in einer MuUiniediainlonnaiiohseingabeeinheii (10); 
Veneilcn der in der Multiniediainfoniiaiionseingabeeinheii (10) klassifizienen Infonnaiionen in eineni Daienvertei- lo 
ler (11) auf die jeweiligen Medien auf der Grundiage entsprechender Infomiaiionen; 

Uniseizen des im Datenverteiler (11) auf die jeweiligen Medien verteilten Textes in einen PhonemsLrom, Schatzen 
der prosodischen Tnfonnafionen und Symbolisieren der Tnformarionen in einem Sprachproze.sj«ir (12); 
Berechnen eines Wens des prosodischen Steuerparameiers, die sich von dem prosodischen Sieuerparameier unter- 
scheidei, der in den Muldmediainformaiionen enthaiien ist, in einem prosodischen Prozessor (13); is 
Einsiellen der Dauer jedes Phoneins in einer SynchronisierungseinsteUvorrichtung (14), so daB das Verarbeitungs- 
ergebnis im prosodischen Prozessor (13) mil einem Bildsignal gemaB der Eingabe der Synchronisierungsinfomia- 
tionen synchronisien werden kann; 

Erzeugen der synchronisienen Sprache in einem Signalprozessor (15) unier Verwendung der prosodischen Infomia- 
iionen vom Daienveneiler (11), des Verarbeiiungsergebnisses in der Synchronisierungseinslellvorrichtung (14) und 20 
einer Syniheseeinheil-Datenbank (16); und 

Ausgeben der Bildinformalionen, die vom Daienvereiler (11) uber die jeweiligen Medien veneill worden sind, auf 
einem Bildschinn in einer Bildausgabevorrichiung (17). 

3. Verfahren nach Anspruch 2, dadurch gekennzeichnei, daB die organisienen Mu hi medial nfonnaiion en Textinfor- 
maiionen, prosodische Infomiaiionen, Infomiaiionen fiir die Synchronisierung mil einem Film, Lippenfomiinfor- 25 
maiionen und Individualilalsinfonualionen enihiiUcn. 

4. Verfahren nach Anspruch 3, dadurch gekennzeichnei, daB die prosodischen Informadoncn die Anzahl der Pho- 
neme, die Phonemsirominfonnationen, die 2^itdauer jedes Phonems, das Tonhohenmusier des Phonems und das 
Energiemusier des Phonems umfassen. 

5- Verfahren nach Anspruch 4, dadurch gekennzeichnei, daB die Dauer des Phonems einen Wen der Tonhohe am 30 
Anfangspunki, am Miiielpunki und am Endpunki innerhaJb des Phonems angibi. 

6- Veriahren nach Anspruch 4, dadurch gekennzeichnei, daB das Energiemusier des Phonems einen Energiewerl in 
Dezibel am Anfangspunki, am Miiielpunki und am Endpunki innerhalb des Phonems angibi. 

I. Veri^hren nach Anspruch 2, dadurch gekennzeichnei, daB die Synchronisierungsinformationen einen Texu eine 
Lippenform, eine Posiiionsinfomiaiion innerhalb eines Films und die Zeiidauerinformaiion umfassen. 35 

8. Verfahren nach Anspruch 2, dadurch gekennzeichnei, daB die Synchronisierungsinfomiaiionen einen Anfangs- 
punki, eine Dauer und cine Verzogerungszeiiinfomiaiion des Sianpunkls umfassen, wobei die Dauer jedes Phonems 
durch diese Synchronisierungsintx^miaiionen gesieuen wird. 

9. Verfahren nach Anspruch 2, dadurch gekennzeichnei, daB die Synchronisierungsinfonnationen eine Dauer des 
Anfangspunkies eines Saizes und eine Zeiidauerinlbmiaiion des Sianpunkis umfassen, wobei die Dauer jedes Pho- 40 
nems durch die vorhergesagie Lippenform unier Berucksichiigung einer Ariikulaiionsari des Phonems und die Ar- 
likulalionssicuerung gesieuen wird. wobei die Lippenfonn innerhalb der Synchronisierungs- und Zeiidauerinfor- 
mationen die Synchronisierungsinfomiaiionen bildcn. 

10. Verfahren nach Anspmch 2, dadurch gekennzeichnei. daB die synchronisierte Sprache anhand einer Informa- 
tion uber den Anfangspunki und den Endpunki jedes Phonems, das dem Sprachsignal zugeordnet isl, und anhand ei- 45 
ncr Inibrmaiion des Phonems erzeug I wird. 

II. Verfahren nach Anspmch 2, dadurch gekennzeichnei. daB die synchronisierte Sprache anhand einer Quaniisie- 
rung des Absiandes (Ma6 der OtTnung) zwischen der Oberlippe und der Unierlippe, eines Absiandcs (MaB der 
Breite) zwischen den linken und rechien Endpunkien einer Lippe und eines MaBes des Vorstehens einer Lippe er- 
zeugt wird, wobei die Lippenform ein quaniisieries und normienes Muster isi, das vom Anikulaiionsori und der Ar- 50 
likulationsan des Phonems auf der Grundiage des Musters mil siarken Unterscheidungsmerkmalen isi. 

12. Vert'ahren nach Anspmch 2, dadurch gekennzeichnei, daB 

das Sendevert^hren der MuUimediainfonnaiionen die Schrine umfaBi: 

Umseizen einer in den Muhimediainformaiionen vorhandenen prosodischen Infonnation in eine Daiensu-uktur, die 
im Signalprozessor (12) verwendei werden kann; 55 
Senden der umgesetzien prosodischen Infomiaiionen um prosodischen Prozessor (13) und zur Svnchronisiemngs- 
einsiellvorrichiung (14); 

Umseizen der vom prosodischen Prozessor (13) und von der Synchronisierungseinstellvorrichiung (14) ausgegebe- 
nen prosodischen Infomiaiionen in eine Daiensiruktur, die in der Syniheseeinheil-Datenbank (16) und im prosodi- 
.schen Prozessor (13) innerhalb des 'n\S -Systems verwendei werden kann, wenn die prosodisciien Infomiaiionen in M 
den Muliimediaeingangsinfonnaiionen enihalten sind; und 

Senden der Intbmiationen zur Syntheseeinheii-Daienbank (16) und zum prosodischen Prozessor (13), wenn die in- 
dividuellen Eisienschaftsinfonuaiionen in den Muliimediaeinuanssinfomiaiionen enihalien sind. 
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